亚洲av网址在线观看_国产精品交换_15小男生gay自慰脱裤子_日韩aⅴ人妻无码一区二区_麻豆视传媒短视频在线

聯(lián)
咨詢熱線:

185-9527-1032

聯(lián)系QQ:

2863379292

官方微信:

搜索引擎對(duì)關(guān)鍵字堆砌的識(shí)別

全網(wǎng)營(yíng)銷

導(dǎo)讀:搜索引擎和搜索引擎優(yōu)化(SEO)一直是一對(duì)矛盾,合理的優(yōu)化有助于搜索引擎對(duì)網(wǎng)站內(nèi)容的識(shí)別,有助于網(wǎng)站的推廣。然而有正面,就有反面,一些SEOers通過(guò)各種欺騙手段來(lái)欺騙搜蘇引擎,以

發(fā)表日期:2019-12-08

文章編輯:興田科技

瀏覽次數(shù):9256

標(biāo)簽:

搜索引擎和搜索引擎優(yōu)化(SEO)一直是一對(duì)矛盾,合理的優(yōu)化有助于搜索引擎對(duì)網(wǎng)站內(nèi)容的識(shí)別,有助于網(wǎng)站的推廣。然而有正面,就有反面,一些SEOers通過(guò)各種欺騙手段來(lái)欺騙搜蘇引擎,以期達(dá)到增加頁(yè)面收錄數(shù)和頁(yè)面排名的目的。

早期的關(guān)鍵字堆砌SpAM作弊方式之一,是將中文詞庫(kù)中的單詞直接用軟件拼湊成文章,這樣的文章沒有實(shí)際的意義,只能給搜索引擎看。那么對(duì)于這樣的文章,搜索引擎是通過(guò)什么方式來(lái)識(shí)別的呢?

我們知道,每個(gè)搜索引擎都有網(wǎng)頁(yè)質(zhì)量監(jiān)控部門,對(duì)于百度等摻雜人工處理的搜索引擎而言,用戶發(fā)現(xiàn)這樣的網(wǎng)站,投訴到百度,百度直接封了這個(gè)網(wǎng)站了事。但對(duì)于Google這樣的封站也是自動(dòng)處理的搜索引擎而言,對(duì)關(guān)鍵字堆砌作弊的識(shí)別就顯得更為重要了。

對(duì)于關(guān)鍵字堆砌作弊方式的識(shí)別,搜索引擎一般采用統(tǒng)計(jì)分析的方法進(jìn)行。

搜索引擎首先將網(wǎng)頁(yè)進(jìn)行分詞,分詞完成后可以得到詞的數(shù)量N和文章長(zhǎng)度L,從大量文章的統(tǒng)計(jì)中發(fā)現(xiàn)文章的長(zhǎng)度L和詞的數(shù)量N兩個(gè)數(shù)字之間存在一定的分布關(guān)系,一般而言L/N界于4至8之間,均值大約在5-6之間。也就是說(shuō)一篇長(zhǎng)度為1000字節(jié)的文章中,應(yīng)該有125-250個(gè)分詞,由于中文和英文的詞的組成不一致,因此在英文和中文中這個(gè)比值的范圍會(huì)有所不同。如果搜索引擎發(fā)現(xiàn)L/N特別大,那么這篇文章就存在就存在關(guān)鍵字堆砌現(xiàn)象了,如果L/N特別小,則可能是這篇文章是由一些詞所組成的沒有意義的文章,筆者對(duì)泥胚文章中的不同作者發(fā)表的文章進(jìn)行了驗(yàn)證,基本上都服從這個(gè)比值范圍。

進(jìn)一步,通過(guò)大量正常文章統(tǒng)計(jì)發(fā)現(xiàn),文章中密度最高的幾個(gè)關(guān)鍵字出現(xiàn)的次數(shù)之和與N/L存在一定的分布關(guān)系,搜索引擎就可以通過(guò)網(wǎng)頁(yè)中的分布與統(tǒng)計(jì)結(jié)果的分布圖進(jìn)行比較得出文章是否存在關(guān)鍵字堆砌的現(xiàn)象。

此外,搜索引擎還將從停止字的比例來(lái)判定文章是否為自然文章。停止字就是如“的”“我”“是”等在文章中普遍使用的字或詞,如果文章中停止字的比例在正常的比例范圍之外,這個(gè)網(wǎng)頁(yè)應(yīng)提交到網(wǎng)頁(yè)質(zhì)量監(jiān)控部門審核。

當(dāng)然,還有更多的算法可以對(duì)網(wǎng)頁(yè)與自然語(yǔ)言的文章進(jìn)行比較分析,以判別文章是否為自然文章。

所謂魔高一尺、道高一丈,有些作弊者已經(jīng)放棄了單詞的組成文章的作弊方式,而改用句子組成文章的作弊方式,作弊者通過(guò)爬蟲或其它方式獲得網(wǎng)上文章的句子,并用軟件將數(shù)十篇文章的某幾句拼湊成一篇文章。這就需要搜索引擎做語(yǔ)義的分析來(lái)判斷是否作弊了,然而目前關(guān)于語(yǔ)義分析的研究還處于研究階段,這也是下一代智能搜索引擎的方向。

然而我們?nèi)匀徊荒軐⒆詣?dòng)文章生成一棍子打死,基于人工智能的文章生成仍然是人類研究自身語(yǔ)言以及自身智能的一個(gè)重要方向。作弊與反作弊,將能促使人類對(duì)人工智能的研究。

如果到最后,軟件能生成人類能夠理解的文章,這是SpAM還是精華?你能肯定地說(shuō)目前存在的智能化程度還不夠高的RSS聚合文章一定是SpAM嗎?然而,如果這樣的文章海量的出現(xiàn),我們又該如何去面對(duì)這個(gè)現(xiàn)象?

參考文獻(xiàn):《搜索引擎原理、實(shí)踐和應(yīng)用》盧亮、張博文,2007

相關(guān)推薦

更多新聞

国产精自产拍久久久久久蜜 | 欧美黑人又粗又大xxxx| 久久夜色撩人精品国产小说| av在线亚洲男人天堂| 欧美人与牲动交xxxx| 亚洲国产欧美在线看片一国产| 久久无码中文字幕久久无码app| 五十路丰满中年熟女中出| 日本不卡一区| 亚洲人成小说网站色在线| 乱成熟女人在线视频| 无码精品人妻一区二区三区漫画| 亚洲精品永久在线观看| 精品一区二区三区无码免费直播| 公和我做好爽添厨房| 黑森林福利视频导航| 女人十八毛片A级十八女人 | 免费观看美女裸体网站| 日韩av无码成人无码免费| 久久精品国产亚洲av麻豆图片| 日本高清成本人视频一区| 青青草原综合久久大伊人精品| 亚洲国产国语对白在线字幕| 狠狠摸狠狠澡| 成人影院在线免费观看视频| 粗大的内捧猛烈进出小视频| 国产良妇出轨视频在线观看| 亚洲熟妇无码爱v在线观看| 精品乱码久久久久久中文字幕 | 人妻少妇乱子伦无码视频专区 | 国产精品交换| 久久久久久久性潮| 亚洲av无码一区二区三区dv| 亚洲制服丝袜一区二区三区| 大又大又粗又硬又爽少妇毛片| 久久精品九九热无码免贵| 少妇精品无码一区二区免费视频| 亚洲熟妇无码爱v在线观看 | 欧美丰满大屁股ass| 久久人人爽人人爽人人av| 国产va在线观看免费|